rlpt

腾讯突破性模型训练方法RLPT：让模型自主思考学习！

腾讯联合港中大提出RLPT方法，通过强化学习让AI从预训练数据中自主推理学习，无需人工标注即可显著提升模型在数学推理、常识问答等任务上的表现，为大语言模型训练开辟了全新范式。